Spark Structured Streaming 获取最后一个 Kafka 分区的消息
Spark Structured Streaming getting messages for last Kafka partition
我正在使用 Spark Structured Streaming 读取 Kafka 主题。
没有任何分区,Spark Structired Streaming 消费者可以读取数据。
但是当我向主题添加分区时,客户端只显示来自最后一个分区的消息。
IE。如果主题中有 4 个分区并且 I.am 在主题中推送像 1,2,3,4 这样的数字,那么客户端只打印 4 个而不是其他值。
我正在使用来自 Spark Structured Streaming 网站的最新示例和二进制文件。
DataFrame<Row> df = spark
.readStream()
.format("kafka")
.option("kafka.bootstrap.servers", "host1:port1,host2:port2")
.option("subscribe", "topic1")
.load()
我错过了什么吗?
问题已通过将 kafka-clients-0.10.1.1.jar 更改为 kafka-clients-0.10.0.1.jar.
得到解决
我正在使用 Spark Structured Streaming 读取 Kafka 主题。
没有任何分区,Spark Structired Streaming 消费者可以读取数据。
但是当我向主题添加分区时,客户端只显示来自最后一个分区的消息。 IE。如果主题中有 4 个分区并且 I.am 在主题中推送像 1,2,3,4 这样的数字,那么客户端只打印 4 个而不是其他值。
我正在使用来自 Spark Structured Streaming 网站的最新示例和二进制文件。
DataFrame<Row> df = spark
.readStream()
.format("kafka")
.option("kafka.bootstrap.servers", "host1:port1,host2:port2")
.option("subscribe", "topic1")
.load()
我错过了什么吗?
问题已通过将 kafka-clients-0.10.1.1.jar 更改为 kafka-clients-0.10.0.1.jar.
得到解决